我们介绍了FastCoref,这是一个用于快速,准确且易于使用的英语核心分辨率的Python软件包。该软件包是可以安装的,并且允许两种模式:基于LingMess体系结构的精确模式,提供最新的核心精度,以及基本更快的模型F-Coref,这是本工作的重点。\ Model {}允许在V100 GPU上25秒内处理2.8K Ontonotes文档(相比之下,LingMess模型为6分钟,而流行的AllennLP Coreference模型的12分钟仅适度精度下降。快速速度是通过将紧凑模型从Lingmess模型中蒸馏而成的,以及使用我们称为“剩余批处理”的技术的有效批处理实现。https://github.com/shon-otmazgin/fastcoref
translated by 谷歌翻译
大量培训数据是最先进的NLP模型高性能的主要原因之一。但是,在培训数据中,什么导致模型做出一定的预测?我们试图通过提供一种通过因果框架来描述培训数据如何影响预测的语言来回答这个问题。重要的是,我们的框架绕过了重新培训昂贵模型的需求,并使我们能够仅基于观察数据来估计因果效应。解决从验证的语言模型(PLM)中提取事实知识的问题,我们重点介绍了简单的数据统计数据,例如共发生计数,并表明这些统计数据确实会影响PLM的预测,这表明此类模型依赖于浅启发式方法。我们的因果框架和结果表明,研究数据集的重要性以及因果关系对理解NLP模型的好处。
translated by 谷歌翻译
表明多语言语言模型允许跨脚本和语言进行非平凡的转移。在这项工作中,我们研究了能够转移的内部表示的结构。我们将重点放在性别区分作为实际案例研究的表示上,并研究在跨不同语言的共享子空间中编码性别概念的程度。我们的分析表明,性别表示由几个跨语言共享的重要组成部分以及特定于语言的组成部分组成。与语言无关和特定语言的组成部分的存在为我们做出的有趣的经验观察提供了解释:虽然性别分类跨语言良好地传递了跨语言,对性别删除的干预措施,对单一语言进行了培训,但不会轻易转移给其他人。
translated by 谷歌翻译
The representation space of neural models for textual data emerges in an unsupervised manner during training. Understanding how those representations encode human-interpretable concepts is a fundamental problem. One prominent approach for the identification of concepts in neural representations is searching for a linear subspace whose erasure prevents the prediction of the concept from the representations. However, while many linear erasure algorithms are tractable and interpretable, neural networks do not necessarily represent concepts in a linear manner. To identify non-linearly encoded concepts, we propose a kernelization of a linear minimax game for concept erasure. We demonstrate that it is possible to prevent specific non-linear adversaries from predicting the concept. However, the protection does not transfer to different nonlinear adversaries. Therefore, exhaustively erasing a non-linearly encoded concept remains an open problem.
translated by 谷歌翻译
接受文本数据培训的现代神经模型取决于没有直接监督的预先训练的表示。由于这些表示越来越多地用于现实世界应用中,因此无法\ emph {Control}它们的内容成为一个越来越重要的问题。我们制定了与给定概念相对应的线性子空间的问题,以防止线性预测因子恢复概念。我们将此问题建模为受约束的线性最小游戏,并表明现有解决方案通常不是最佳的此任务。我们为某些目标提供了封闭式的解决方案,并提出了凸松弛的R-Lace,对他人效果很好。当在二元性别删除的背景下进行评估时,该方法恢复了一个低维子空间,其去除通过内在和外在评估会减轻偏见。我们表明,尽管是线性的,但该方法是高度表达性的,有效地减轻了深度非线性分类器中的偏见,同时保持拖延性和解释性。
translated by 谷歌翻译
尽管可解释的AI的大量研究重点是产生有效的解释,但较少的工作致力于人们如何理解和解释解释的问题。在这项工作中,我们通过研究基于显着性数据的解释来关注这个问题。文本模型的特征属性解释旨在传达输入文本的哪些部分比其他部分更具影响力。许多当前的解释方法,例如基于梯度或基于沙普利价值的方法,都提供了重要的衡量标准,这些方法在数学上是众所周知的。但是,一个人接受解释(解释)如何理解它?他们的理解是否与解释试图交流的内容相匹配?我们从经验上研究了输入的各种因素,特征 - 贡献解释和可视化程序对Laypeople对解释的解释的影响。我们询问人群工人对英语和德语的任务进行解释,并根据感兴趣的因素适合他们的回答。我们发现人们经常误解解释:尽管有直接传达重要性的解释,但肤浅和无关的因素(例如单词长度)影响了解释者的重要性分配。然后,我们证明其中一些失真可以减弱:我们提出了一种基于过度感受和低估的模型估计的方法来调整销售的方法,并探索条形图作为热图显着性可视化的替代方法。我们发现两种方法都可以减轻特定因素的扭曲作用,从而使对解释的理解更好地理解。
translated by 谷歌翻译
当向人类解释AI行为时,人类的解释如何理解传达的信息,并且它是否与解释试图交流的内容相匹配?我们什么时候可以说解释正在解释某件事?我们旨在通过利用有关人类用来理解行为的民间概念的思维理论来提供答案。我们建立了人类言论的社会归因框架,该框架描述了解释的功能:人类从他们那里理解的信息。具体而言,有效的解释应产生连贯的心理模型(传达有关其他对比案例的信息),完整(传达对对比案例的明确因果叙事,代表原因,影响的表示和外部原因)以及互动(表面和解决矛盾,通过审讯到概括属性)。我们证明,许多XAI机制可以映射到民间行为概念。这使我们能够发现它们的故障模式,以防止当前方法有效解释,以及启用连贯解释所必需的。
translated by 谷歌翻译
在数字人文学科和计算社会科学中,比较两个文本体系和搜索它们在它们之间使用情况不同的单词的问题。这通常是通过在每个语料库上的训练单词嵌入,对齐矢量空间,并寻找余弦距离在对齐空间中的单词很大。然而,这些方法通常需要大量过滤词汇表表现良好,而且 - 正如我们在这项工作中所展示的那样 - 导致不稳定,因此不太可靠,结果。我们提出了一种不使用矢量空间对齐的替代方法,而是考虑每个单词的邻居。该方法简单,可解释和稳定。我们在9种不同的设置中展示了它的有效性,考虑了不同的语料库分裂标准(年龄,性别和推文作者,Tweet的时间)和不同的语言(英语,法语和希伯来语)。
translated by 谷歌翻译
我们介绍了BitFit,这是一种稀疏的重点方法,其中仅修改了模型的偏差(或其中一个子集)。我们表明,通过在预训练的BERT模型上应用BITFIT的小型至中等训练数据具有竞争力(有时比)对整个模型进行微调。对于较大的数据,该方法与其他稀疏微调方法具有竞争力。除了它们的实际实用性外,这些发现与理解常用的填补过程的问题有关:它们支持以下假设:填充主要是关于揭示通过语言模型培训引起的知识,而不是学习新的任务特定的语言知识。
translated by 谷歌翻译
This paper presents a machine learning approach to multidimensional item response theory (MIRT), a class of latent factor models that can be used to model and predict student performance from observed assessment data. Inspired by collaborative filtering, we define a general class of models that includes many MIRT models. We discuss the use of penalized joint maximum likelihood (JML) to estimate individual models and cross-validation to select the best performing model. This model evaluation process can be optimized using batching techniques, such that even sparse large-scale data can be analyzed efficiently. We illustrate our approach with simulated and real data, including an example from a massive open online course (MOOC). The high-dimensional model fit to this large and sparse dataset does not lend itself well to traditional methods of factor interpretation. By analogy to recommender-system applications, we propose an alternative "validation" of the factor model, using auxiliary information about the popularity of items consulted during an open-book exam in the course.
translated by 谷歌翻译